Yapay Zeka

Meta’nın Llama 4 Modeli Testte Değişik, Gerçekte Değişik Çıktı!

Meta’nın Llama 4 modeliyle yapmış olduğu testlerde kullanılan sürüm ile halka açık sürüm içinde fark olduğu ortaya çıktı.

Meta, yeni yapay zekâ modellerini tanıttı fakat sonrasında işler birazcık karıştı. Firmanın, modellerini rakiplerinden daha başarı göstermiş göstermek için kontrol neticelerini birazcık “kendi lehine” oynadığı iddia edildi. Kısacası, Meta’nın yapay zekâsı daha akıllı şeklinde görünüyordu fakat bunun arkasında minik bir oyun varmış.

Firmanın Llama 4 serisinden Maverick modeli, testlerde yüksek puan almasına karşın bu sonucun halka açık versiyonu yansıtmadığı ortaya çıktı.

Testte görünen Maverick ile halka sunulan model aynı değil

Meta, hafta sonu gerçekleştirdiği duyuruyla Llama 4 çatısı altındaki iki yeni yapay zekâ modelini tanıttı. Scout ve Maverick isminde bu modellerden bilhassa Maverick’in, GPT-4o ve Gemini 2.0 Flash şeklinde rakiplerini geçmiş olduğu açıklandı. LMArena isminde popüler karşılaştırma platformunda ikinci sıraya yükselen Maverick, 1417 ELO puanıyla dikkat çekti.

Sadece kısa süre sonrasında ortaya çıkan detaylar, kontrol edilen Maverick’in kamuya açık versiyondan değişik bulunduğunu gösterdi. Meta’nın belgelerinde, LMArena’da kullanılan modelin “konuşma kabiliyetleri için hususi olarak optimize edilmiş deneysel bir sürüm” olduğu açıklandı. Patform yöneticilerinin de tepkisini çekti ve kuralların güncelleneceği açıklandı.

Meta, bu hususi sürümün kullanımını savunurken, geliştiricilerin açık kaynaklı versiyonu kendi gereksinimlerine nazaran özelleştirebileceğini belirtti. Sadece kontrol platformunda gösterilen performans ile halka sunulan modelin değişik olması, gerçek dünyada alınabilecek verimin sorgulanmasına yol açtı. Firmanın modeli beklenen performansı gösteremediği için daha ilkin birkaç kez ertelediği de biliniyor.

Yaşanmış olan bu gelişme, yapay zekâ karşılaştırma testlerinin şeffaflık ve güvenilirlik açısından önemini bir kez daha gündeme taşıdı. Hem de modellerin kontrol koşulları ile kullanıcıya sunulan hâli içinde fark olması, geliştiricilerin karar alma süreçlerini de etkileyebiliyor.

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu